Impact of Tokenization on Language Models: An Analysis for Turkish

نویسندگان

چکیده

Tokenization is an important text preprocessing step to prepare input tokens for deep language models. WordPiece and BPE are de facto methods employed by models, such as BERT GPT. However, the impact of tokenization can be different morphologically rich languages, Turkic where many words generated adding prefixes suffixes. We compare five tokenizers at granularity levels, i.e. their outputs vary from smallest pieces characters surface form words, including a Morphological-level tokenizer. train these pretrain medium-sized models using RoBERTa pretraining procedure on Turkish split OSCAR corpus. then fine-tune our six downstream tasks. Our experiments, supported statistical tests, reveal that tokenizer has challenging performance with tokenizers. Furthermore, we find increasing vocabulary size improves Morphological Word-level more than The ratio number parameters total model empirically chosen 20% 40% other obtain reasonable trade-off between performance.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the impact of training on second language writing assessment: a case of raters’ biasedness

چکیده هدف اول این تحقیق بررسی تأثیر آموزش مصحح بر آموزش گیرندگان براساس پایایی نمره های آنها در پنج بخش شامل محتوا ، سازمان ، لغت ، زبان و مکانیک بود. هدف دوم این بود که بدانیم آیا تفاوتهای بین آموزشی گیرندگان زن و مرد در پایایی نمرات آنها وجود دارد. برای بررسی این موارد ، ما 90 دانشجو در سطح میانه (متوسط) که از طریق تست تعیین سطح شده بودند انتخاب شدند. بعد از آنها خواستیم که درباره دو موضوع ا...

15 صفحه اول

the impact of computer-assisted language learning on achievement motivation of high school students

چکیده انگیزه دلیل اصلی رفتارهای ما است. به نظر می رسد انگیزه جزء جدایی ناپذیر فرایند یادگیری باشد. ارزش ذاتی موفقیت تمایل به پیشرفت را در یادگیرنده ایجاد میکند. به عبارت ساده این تمایل انگیزه پیشرفت نامیده میشود. انگیزه پیشرفت را میتوان در احساس یادگیرنده هنگام چالش با درس های مدرسه، لذت انجام فعالیت درسی، یا حس کشف پاسخ مشاهده کرد.حتی ممکن است انگیزه پیشرفت را در تلاش یادگیرنده برای جلب تایید...

an investigation of the impact of self monitoring on langauge teachers motivational practice and its effect on learners motivation

the central purpose of this study was to conduct a case study about the role of self monitoring in teacher’s use of motivational strategies. furthermore it focused on how these strategies affected students’ motivational behavior. although many studies have been done to investigate teachers’ motivational strategies use (cheng & d?rnyei, 2007; d?rnyei & csizer, 1998; green, 2001, guilloteaux & d?...

a study on thermodynamic models for simulation of 1,3 butadiene purification columns

attempts have been made to study the thermodynamic behavior of 1,3 butadiene purification columns with the aim of retrofitting those columns to more energy efficient separation schemes. 1,3 butadiene is purified in two columns in series through being separated from methyl acetylene and 1,2 butadiene in the first and second column respectively. comparisons have been made among different therm...

the effect analysis of proficiency on language - switching in iranian efl learners writing

abstract in a protocol analysis of second language writing from 20 adult english as a foreign language (efl) iranian students, this research observed how language-switching (l-s), i.e., first language use in l2 writing, was affected by l2 proficiency. switching interactively between first (l1) and second (l2) languages has been recognized as one of the salient characteristics of l2 writing....

15 صفحه اول

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: ACM Transactions on Asian and Low-Resource Language Information Processing

سال: 2023

ISSN: ['2375-4699', '2375-4702']

DOI: https://doi.org/10.1145/3578707